1989年,高德纳咨询公司(Gartner)提出商业智能(Business Intelligence, BI)概念;2008年,高德纳将商业智能概念进一步升级为高级分析(advanced analytics);2011年,麦肯锡将其阐释为大数据概念。虽然名称不同,但实际上它们要解决的问题并未改变。“大数据”分析技术相比20年前,更能处理大量、多样、实时的数据。
当前,医疗行业是大数据分析最具价值的传统行业之一。麦肯锡在其报告中指出,排除体制障碍,大数据分析可以帮助美国的医疗服务业一年创造3000亿美元的附加价值。医学大数据的分析和应用将发挥巨大的作用,提高医疗效率和效果。目前医学大数据的发展趋势是医学数据的大量爆发及快速的电子数字化[3, 4]。临床数据、医学实验数据、居民的行为与健康管理数据等都构成了“大数据”。数据存储、计算平台,移动互联网的发展,计算机处理数据、信息能力的提高为分析利用医学大数据提供了可能。在医学大数据分析应用中,我们不仅应该知道要使用何种技术,还要知道大数据分析的目标,以及这种技术在什么时候、什么地方适用,这就需要医学与计算机技术的交叉融合。
医学大数据的应用
医学“大数据”应用主要有两个,一个是发现新知识、认识新规律。以往受数据采集与分析能力的限制,医学主要依靠抽样研究来发现新知识、认识新规律,但不同样本间的差距经常导致结论不一致甚至截然相反。随着大数据技术的发展,医学研究由抽样的小样本研究进入到超大样本、甚至全样本研究时代,从严格筛选患者入组进行研究到全面观察各种影响因素的真实世界研究时代。例如,美国2015年就启动了观察阿司匹林效果与剂量的大规模观察性医学研究,多达30万人参加[5]。基于大数据的观察性研究得出的结论更具现实指导意义,甚至会推翻之前一些建立在小样本数据基础上的“科学”结论。斯坦伯格(Steinberg)等人从3万余人两年的保险记录、化验记录、用药记录、就医记录中挖掘出新的代谢综合征预测模型,用80%的人作为训练集,20%的人作为测试集,在贝叶斯框架下依据最大熵原理,对数据中未知的参数进行分布边缘化来计算模型的结构概率,综合考虑模型的复杂性和与数据的匹配性建立起新的预测模型,从4000余个参数中筛选出腰围、用药依从性等与代谢综合征密切相关的因素[6]。
医学大数据的另一个应用是促进精准适度医疗,提升医疗价值。精准医疗,并不是狭隘地特指基于基因组学的医疗模式。人体是个复杂的系统,疾病是在生活方式、心理、社会-环境等因素综合作用下的结果,基因在疾病发生发展中只起部分作用。需要长期采集个体与群体的健康数据,综合分析,才能把握各种影响因素与健康的关系。在把握群体规律的同时,还要把握个体的规律,才能实现精准的预防与治疗。以基因检测预测疾病为例,被称为“乳腺癌1号基因”的BRCA1,突变后使人罹患乳腺癌的风险是65%(以70岁计;置信区间44%~78%)[7],而不是100%,没有这个基因突变的人患乳腺癌的概率也不为0。评估未来患病的概率是预测的价值,但是预测与诊断是截然不同的,预测具有不确定性,诊断则要求确定性。一个有BRCA1基因突变的人是否都应该像影星朱莉一样预防性地将乳腺切除?我们如何确定一个有BRCA1基因突变的人是属于会发病的一拨,还是不发病的另一拨呢?再以高血压为例,判断所有成年人高血压的界值都是统一的140/90mmHg,而实际上数据分析显示,血压高于140/90mmHg的人中有很大比例患心血管风险并不高,而血压低于120/80mmHg的人中有些人患心血管疾病风险也并不低[8]。我们建立了迄今最大的中国青年人生命信息数据库,目前已有九万余名青年人的数据。研究显示,同样是收缩压为150mmHg的青年人,其患心血管风险的差别却非常大。无论是基因突变还是高血压,危险因素与疾病之间的关系是复杂的,不能简单化、绝对化地理解,需要针对不同的个体具体分析。由个体差异性带来的不确定性是医学复杂性的重要体现。随着医学的进步,源于个体的数据越来越丰富,包括组学数据、健康监护数据、影像数据等。计算机科学与医学结合能够挖掘出新的知识,开创新的诊疗模式。例如心理问题一般是通过临床观察或自我就医的方式被发现并诊断的,现实中缺乏客观有效的诊断方法,而基于说话(复述一件事情)模式的数据挖掘,能够发现患者条理表达能力的下降,进而成功预警心理问题,在小样本人群实验中达到了100%的准确度[9]。通过机器学习对一些复杂信息进行处理,也能对心脏病、哮喘、癌症等疾病作诊断和预测,能够达到或超越专家的诊断水平[10~12]。
精准医疗和适度医疗既有联系,又有区别。做到精准医疗,不一定就做到了适度医疗,适度医疗更多的是对医疗价值层面的考量,关注获益是否大于风险,以及获益和成本的关系。由于多种原因引起的超过疾病实际需要的诊断和治疗的行为或过程就是过度医疗[13]。正如德国医生尤格·布来克在《无效的医疗》一书中所说“很多不该吃的药,吃了;很多不需要的治疗,做了;很多手术会使病人更加痛苦,却也在做。”在美国,40%的医疗被认为是无效的。在我国,过度诊疗的现象也不同程度地存在。为什么过度诊疗会成为世界性的问题,其中一个重要的原因就是个体的差异性,同一种药物对不同人有不同的效果。如吉非罗齐(emfibrozil),它的上市应用主要基于赫尔辛基心脏研究,经过5年的双盲实验(一批人服用吉非罗齐,一批人服用安慰剂),实验结果显示用药组比安慰剂组患心肌梗死的相对危险度下降了34%[14],但实际上分析表明,用药组的心梗绝对危险度仅下降了1.4%,即71个患者治疗5年时间,该药只对1个人起到了预防心肌梗死的作用。如何能从这71个人中找到有效的那1个人,即实现精准医疗,还需要通过大数据研究。一方面要收集个人基因组、蛋白质组的数据,另一方面要收集个人行为、用药、心理以及环境的数据,通过分析药物组和服用安慰剂人群中出现心梗和未出现心梗的人的特征,从而区分出哪些人属于不吃药也不会心梗的(低风险),哪些人属于吃了药有效果的(预防了心梗),哪些人吃了药也没能预防心梗的,对于后者还要继续分析原因,是药物的剂量不足,还是有其它因素导致的心梗,这样我们的治疗和预防手段就会越来越有针对性,达到个体化的精准医疗。又如阿司匹林,它被很多老年人用于预防心梗、癌症,但它也能导致严重的消化道出血。每个人服用的效果是不同的。如何预测不同个体服用阿司匹林的效果,也是未来医学大数据研究的重要课题[15]。
结语
如果说做到量体裁衣、辨证施治是医学大数据应用的重大课题,那么它的前提基础是拥有长期、全面、准确的人群健康数据。每个个体都是特殊的,而每个人的健康是同等重要的,医学大数据对数据的精准性有更高的要求。对于不精准的“垃圾”数据,数据量越大,谬误与危害越大。中国医疗保健国际交流促进会医学数据与医学计量分会、人口与健康空军总医院平台中心联合国内多家单位正在开展中国百万人群队列研究,随访100万中国人20年时间,收集高质量的健康大数据,通过记录健康指标动态变化的个体小数据与群体健康大数据,横向与大众比,纵向和自己比,为国人的健康评估提供精准的数据标尺[16],从而促进精准适度医疗。在此也欢迎有志于此的大数据、云计算方面的计算机专家协力合作,共同推进这项工作,建立医学大数据研究示范。■
所有评论仅代表网友意见